22 research outputs found

    Sketching sonic interactions by imitation-driven sound synthesis

    Get PDF
    Sketching is at the core of every design activity. In visual design, pencil and paper are the preferred tools to produce sketches for their simplicity and immediacy. Analogue tools for sonic sketching do not exist yet, although voice and gesture are embodied abilities commonly exploited to communicate sound concepts. The EU project SkAT-VG aims to support vocal sketching with computeraided technologies that can be easily accessed, understood and controlled through vocal and gestural imitations. This imitation-driven sound synthesis approach is meant to overcome the ephemerality and timbral limitations of human voice and gesture, allowing to produce more refined sonic sketches and to think about sound in a more designerly way. This paper presents two main outcomes of the project: The Sound Design Toolkit, a palette of basic sound synthesis models grounded on ecological perception and physical description of sound-producing phenomena, and SkAT-Studio, a visual framework based on sound design workflows organized in stages of input, analysis, mapping, synthesis, and output. The integration of these two software packages provides an environment in which sound designers can go from concepts, through exploration and mocking-up, to prototyping in sonic interaction design, taking advantage of all the possibilities of- fered by vocal and gestural imitations in every step of the process

    Caractérisation de l'environnement musical dans les documents audiovisuels

    Get PDF
    Currently, the amount of music available, notably via the Internet, is growing daily. The collections are too huge for a user to navigate into without help from a computer. Our work takes place in the general context of music indexation. In order to detail the context of our work, we present a brief overview of the work currently made in music indexation for indexation : instrument recognition, tonality and tempo estimation, genre and mood classification, singer identification, melody, score, chord and lyrics transcription. For each of these subjects, we insist on the definition of the problem and of technical terms, and on the more imporants problems encountered. In a second part, we present au method we developped to automatically distinguish between monophonic and polyphonic sounds. For this task, we developped two new parameters, based on the analysis of a confidence indicator. The modeling of these parameters is made with Weibull bivariate distributions. We studied the problem of the estimation of the parameters of this distribution, and suggested an original method derived from the moment method. A full set of experiment allow us to compare our system with classical method, and to validate each step of our approach. In the third part, we present a singing voice detector, in monophonic and polyphonic context. This method is base on the detection of vibrato. This parameter is derived from the analysis of the fundamental frequency, so it is a priori defined for monophonic sounds. Using two segmentations, we extend this concept to polyphonic sound, and present a new parameter : the extended vibrato. Our system's performances are comparable with those of state-of-the-art methods. Using the monophonic / polyphonic distinction as a pre-processing allow us to adapt our singing voice detector to each context. This leads to an improvment of the results. After giving some reflexions on the use of music for automatic description, annotating and indexing of audiovisual documents, we present the contribution of each tool we presented to music indexation, and to audiovisual documents indexation using music, and finally give some perspectives.Actuellement, la quantité de musique disponible, notamment via Internet, va tous les jours croissant. Les collections sont trop gigantesques pour qu'il soit possible d'y naviguer ou d'y rechercher un extrait sans l'aide d'outils informatiques. Notre travail se place dans le cadre général de l'indexation automatique de la musique. Afin de situer le contexte de travail, nous proposons tout d'abord une brève revue des travaux réalisés actuellement pour la description automatique de la musique à des fins d'indexation : reconnaissance d'instruments, détermination de la tonalité, du tempo, classification en genre et en émotion, identification du chanteur, transcriptions de la mélodie, de la partition, de la suite d'accords et des paroles. Pour chacun de ces sujets, nous nous attachons à définir le problème, les termes techniques propres au domaine, et nous nous attardons plus particulièrement sur les problèmes les plus saillants. Dans une seconde partie, nous décrivons le premier outil que nous avons développé : une distinction automatique entre les sons monophoniques et les sons polyphoniques. Nous avons proposé deux nouveaux paramètres, basés sur l'analyse d'un indice de confiance. La modélisation de la répartition bivariée de ces paramètre est réalisée par des distributions de Weibull bivariées. Le problème de l'estimation des paramètres de cette distribution nous a conduit à proposer une méthode originale d'estimation dérivée de l'analyse des moments de la loi. Une série d'expériences nous permet de comparer notre système à des approches classiques, et de valider toutes les étapes de notre méthode. Dans la troisième partie, nous proposons une méthode de détection du chant, accompagné ou non. Cette méthode se base sur la détection du vibrato, un paramètre défini à partir de l'analyse de la fréquence fondamentale, et défini a priori pour les sons monophoniques. A l'aide de deux segmentations, nous étendons ce concept aux sons polyphoniques, en introduisant un nouveau paramètre : le vibrato étendu. Les performances de cette méthode sont comparables à celles de l'état de l'art. La prise en compte du pré-traitement monophonique / polyphonique nous a amenés à adapter notre méthode de détection du chant à chacun de ces contextes. Les résultats s'en trouvent améliorés. Après une réflexion sur l'utilisation de la musique pour la description, l'annotation et l'indexation automatique des documents audiovisuels, nous nous posons la question de l'apport de chacun des outils décrits dans cette thèse au problème de l'indexation de la musique, et de l'indexation des documents audiovisuels par la musique et offrons quelques perspectives

    Caractérisation de la voix chantée dans un contexte d'indexation audio

    Get PDF
    Dans un processus de classification ou d'indexation de documents audio, la première étape est souvent la segmentation du signal en composantes primaires : la plupart du temps musique et parole. Très peu de travaux ont cependant été jusqu'alors consacrés à la détection du chant, qu'il soit accompagné ou non. Nous proposons ici d'utiliser des paramètres simples (vibrato et coefficient harmonique), ainsi qu'une nouvelle segmentation du signal pour caractériser le chant. Nous fusionnons ensuite les résultats avec ceux d'une segmentation classique parole/musique. Les tests sont réalisés sur un corpus que nous avons composé nous même, de façon à avoir la plus grande diversité possible. Nous testons d'abord notre système sur une tâche d'identification, puis sur une tâche de détection. Dans les deux cas, les résultats sont satisfaisants. Notre système de classification est presque parfait, les seules erreurs sont dues à des styles musicaux anecdotiques. Pour la tâche de détection, nous avons des non-détections, mais très peu de fausses-détections

    Fenêtre et grille optimales pour la transformée de Gabor Exemples d'application à l'analyse audio

    No full text
    International audienceThis article deals with the use of optimal lattice and optimal window in Discrete Gabor Transform computation. In the case of a generalized Gaussian window, extending earlier contributions, we introduce an additional local window adaptation technique for non-stationary signals. We illustrate our approach and the earlier one by addressing three time-frequency analysis problems: close frequencies distinction, frequency estimation and Signal to Noise Ratio estimation. The results are presented, when possible, with real world audio signals.Cet article présente l'utilisation d'une grille optimale et d'une fenêtre optimale pour le calcul de la transformée de Gabor discrète. Dans le cas d'une Gaussienne généralisée, nous étendons des travaux précédents et proposons une fenêtre localement optimale pour des si-gnaux non-stationnaires. Nous présentons des résultats sur trois problèmes d'analyse temps-fréquence, sur des signaux réels et synthétiques : la distinction de composantes temps-fréquence proches, l'estimation de fréquence instantané et l'estimation du Rapport Signal à Bruit. Abstract – This article deals with the use of optimal lattice and optimal window in Discrete Gabor Transform computation. In the case of a generalized Gaussian window, extending earlier contributions, we introduce an additional local window adaptation technique for non-stationary signals. We illustrate our approach and the earlier one by addressing three time-frequency analysis problems: close frequencies distinction, frequency estimation and Signal to Noise Ratio estimation. The results are presented, when possible, with real world audio signals

    Outils innovants pour la création d’esquisses sonores combinant vocalisations et gestes

    Get PDF
    Les designers produisent différents types de représentations physiques et/ou digitales lors des différentes phases d'un processus de design. Ces objets intermédiaires de représentation permettent et supportent l'incarnation des idées du designer, de les externaliser, mais aussi la médiation entre les personnes qui sont impliquées dans les différentes phases du design (designers produits, ingénieurs, marketing, ...). Les designers sonores, eux aussi, produisent des sons intermédiaires pour les présenter aux commanditaires par un processus itératif de raffinement de ces propositions. Ainsi ces différents sons intermédiaires sont des esquisses sonores qui représentent les différentes étapes intermédiaires d'un processus de création en constante évolution. Nous présentons ici une proposition d'une méthode d'esquisse sonore basée sur la voix et étendue par l'utilisation d'une synthèse sonore par corpus de son. Cet outil a été développé dans le cadre du projet Européen SkAT-VG (Sketching Audio Technologies using Vocalizations and Gestures). L'utilisation de la vocalisation s'ancre dans la pratique du design permettant de stimuler la génération de proposition sonore et la médiation entre les créatifs

    An optimally concentrated Gabor transform for localized time-frequency components

    Get PDF
    Gabor analysis is one of the most common instances of time-frequency signal analysis. Choosing a suitable window for the Gabor transform of a signal is often a challenge for practical applications, in particular in audio signal processing. Many time-frequency (TF) patterns of different shapes may be present in a signal and they can not all be sparsely represented in the same spectrogram. We propose several algorithms, which provide optimal windows for a user-selected TF pattern with respect to different concentration criteria. We base our optimization algorithm on l p -norms as measure of TF spreading. For a given number of sampling points in the TF plane we also propose optimal lattices to be used with the obtained windows. We illustrate the potentiality of the method on selected numerical examples

    An optimally concentrated Gabor transform for localized time-frequency components

    Full text link
    Gabor analysis is one of the most common instances of time-frequency signal analysis. Choosing a suitable window for the Gabor transform of a signal is often a challenge for practical applications, in particular in audio signal processing. Many time-frequency (TF) patterns of different shapes may be present in a signal and they can not all be sparsely represented in the same spectrogram. We propose several algorithms, which provide optimal windows for a user-selected TF pattern with respect to different concentration criteria. We base our optimization algorithm on lpl^p-norms as measure of TF spreading. For a given number of sampling points in the TF plane we also propose optimal lattices to be used with the obtained windows. We illustrate the potentiality of the method on selected numerical examples

    IRIM at TRECVID2009: High Level Feature Extraction

    Get PDF
    International audienceThe IRIM group is a consortium of French teams working on Multimedia Indexing and Retrieval. This paper describes our participation to the TRECVID 2009 High Level Features detection task. We evaluated a large number of different descriptors (on TRECVID 2008 data) and tried different fusion strategies, in particular hierarchical fusion and genetic fusion. The best IRIM run has a Mean Inferred Average Precision of 0.1220, which is significantly above TRECVID 2009 HLF detection task median performance. We found that fusion of the classification scores from different classifier types improves the performance and that even with a quite low individual performance, audio descriptors can help

    Intérêt de la corticothérapie anténatale chez les prématurés de moins de 32 semaines d'aménorrhée et petits pour l'âge gestationnel (à partir de 2 cohortes multicentriques (EPIPAGE1 et LIFT cohort))

    No full text
    CONTEXTE : Les femmes présentant un risque d'accouchement prématuré entre 24 et 34SA bénéficient d'une corticothérapie anténatale, reconnue pour diminuer les risques de morbidités néonatales. Des données expérimentales et cliniques sur la tolérance et l'efficacité de ce traitement chez les foetus RCIU et/ou PAG remettent en question l'emploi de ce traitement dans cette population. OBJECTIF : Evaluer l'efficacité de la CAN sur la mortalité néonatale et le devenir neurodéveloppemental chez les enfants PAG. METHODES : La population d'enfants nés avant 32 SA est issue de 2 cohortes prospectives et multicentriques : EPIPAGE1 et LIFT cohort. La mortalité est définie par le décès au cours de l'hospitalisation en néonatalogie. Le devenir neurodéveloppemental est évalué à partir d'un examen clinique et d'une évaluation neuropsychologique à l'âge de 2 ans d'âge corrigé dans LIFT cohort, et 5 ans dans EPIPAGE1. RESULTATS : Dans le groupe ZScore-1.5DS. Mais l'effet n'était en réalité pas différent dans les 2 groupes (p=1.2). La CAN améliorait le devenir neurologique de manière non significative dans les 2 groupes (OR=0.633(0.329-1.218), OR=0.865(0.719-1.041)), et cet effet était plus important dans le groupe ZScore-1.5SD group), and this effect was greater in the <-1.5SD subgroup (p=0.04). CONCLUSION: Antenatal corticotherapy has to be purchase in the Z-score for birth-weight under -1.5SD, because of a beneficial effect in neurodevelopmental outcome.ANGERS-BU Médecine-Pharmacie (490072105) / SudocSudocFranceF

    Caractérisation de l'environnement musical dans les documents audiovisuels

    No full text
    TOULOUSE3-BU Sciences (315552104) / SudocSudocFranceF
    corecore